Sex-specific proteomic signatures improve cardiovascular risk prediction for the general population without cardiovascular disease or diabetes

该研究旨在评估将性别特异性蛋白质组学特征添加到SCORE2模型中，是否能增强普通人群（无心血管疾病或糖尿病）10年主要不良心血管事件（MACE）的风险预测能力。研究使用了英国生物银行（UKB）47,382名40-69岁、无既往心血管疾病或糖尿病参与者的数据，通过Olink Explore 3072平台对血浆样本进行蛋白质组学分析，测量了2,923种独特蛋白质，最终纳入2,085种蛋白质。采用性别特异性LASSO回归进行生物标志物选择，通过Harrell’s C指数、净重新分类指数（NRI）和综合鉴别指数（IDI）评估模型性能。结果显示，10年随访期间，2,163名参与者发生MACE。LASSO回归共筛选出18种蛋白质用于增强MACE风险预测，其中5种在男女中均被识别，7种仅在男性中识别，6种仅在女性中识别。将这些蛋白质纳入SCORE2模型后，总人群的C指数从0.713显著提高至0.778（P<0.001），男性从0.684提高至0.771（Δ=+0.087），女性从0.720提高至0.769（Δ=+0.049）。WAP四硫键核心结构域蛋白2（WFDC2）和生长分化因子15（GDF15）在两性中对C指数的提升贡献最大，甚至超过N末端脑钠肽前体（NTproBNP）。此外，总人群的NRI为19.9%（95%CI：14.7,25.2），男性为36.3%（95%CI：25.3,57.1），女性为18.2%（95%CI：10.2,26.5），IDI也均有显著提升。结论指出，结合男性12种蛋白质和女性11种蛋白质浓度的性别特异性10年MACE风险预测模型，显著提高了SCORE2模型对普通人群（无糖尿病）的鉴别能力，表明性别特异性蛋白质组学特征在加强心血管风险分层和个性化预防策略方面具有潜力。

摘要

引言：准确预测10年主要不良心血管事件（MACE）对于有效的疾病预防和管理至关重要。尽管SCORE2模型引入了性别特异性算法，但仍有进一步优化预测的空间。
目的：评估在大型英国生物银行（UKB）队列中，将性别特异性蛋白质组学特征添加到SCORE2模型中是否能增强10年主要不良心血管事件（MACE）的风险预测能力。
方法：本研究使用了英国生物银行（UKB）47,382名参与者的数据，这些参与者年龄在40至69岁之间，无既往心血管疾病或糖尿病史。采用Olink Explore 3072平台对血浆样本进行蛋白质组学分析，共检测到2,923种独特蛋白质，其中2,085种可用于后续分析。采用性别特异性的最小绝对收缩与选择算子（LASSO）回归进行生物标志物筛选。通过Harrell’s C指数（一种鉴别度指标）、净重新分类指数（NRI）和综合鉴别指数（IDI）的变化来评估模型性能。

介绍

方法

研究人群

英国生物银行（UKB）是一项大型前瞻性队列研究，涵盖502,414名参与者，年龄在40至69岁之间，于2006年3月13日至2010年10月1日期间在英格兰、苏格兰和威尔士的22个评估点招募。该研究遵循《赫尔辛基宣言》开展，所有参与者均提供了书面知情同意书。共有54,219名参与者被选中进行蛋白质组学检测，包括来自英国生物银行基线队列的46,595名随机子集个体、为确保122种特定疾病有足够代表性而专门选取的6,356名参与者，以及1,268名参与新冠病毒研究的个体。因此，非随机选取的参与者比随机选取的参与者年龄稍大（但差异不显著），健康状况也稍差。

补充图S1展示了纳入分析的研究人群的排除标准流程图。共有54,219名参与者的基线血液样本被选中进行蛋白质组学检测。排除标准包括：所测蛋白质缺失值超过50%的参与者、确诊糖尿病的参与者、有主要不良心血管事件（MACE）病史的参与者。此外，基线时糖尿病数据缺失或MACE数据缺失（无论是基线前还是随访期间）的参与者也被排除。最终，47,382人被纳入分析。总体而言，纳入的研究参与者中89.2%来自随机子集。在敏感性分析中，非随机选取的参与者（n=5,114）被排除在分析之外。

伦理声明

本研究使用英国生物银行资源（申请编号101633）开展，已获得英国国家医疗服务体系（NHS）西北多中心研究伦理委员会的伦理批准（参考编号：11/NW/0382）。所有参与者均提供了书面知情同意。

血浆蛋白质组学检测

采用Olink Explore 3072平台对基线时收集的EDTA血浆样本进行蛋白质组学分析。更多详细信息可参见附录文本1（补充材料）。该平台可检测2923种独特的蛋白质。排除了缺失值超过20%或25%的数值低于检测限的蛋白质（共838种）。最终，有2085种蛋白质被纳入分析。

SCORE2模型的变量

SCORE2模型适用于40至69岁无糖尿病的成年人，其包含的变量有年龄、性别、高密度脂蛋白胆固醇（HDL-C）、总胆固醇、收缩压（SBP）和吸烟状态[28]。年龄、性别和吸烟状态的数据通过标准化问卷获取。HDL-C和总胆固醇水平采用贝克曼库尔特AU5800检测仪，通过酶法进行测定。收缩压通过欧姆龙设备在左上臂进行自动读数记录。

结局确定

主要终点为主要不良心血管事件（MACE），与SCORE2模型一致，其定义为心血管死亡、非致死性心肌梗死和非致死性卒中的复合终点[13]。非致死性心肌梗死和卒中的发生通过初级保健记录或医院事件统计数据确定。死亡日期和原因通过英格兰和威尔士的国家卫生服务信息中心以及苏格兰的国家卫生服务中央登记处的死亡登记记录确定。参与者从基线开始随访，直至首次发生MACE事件、死亡或10年随访期结束（以先发生者为准）。关于MACE的详细定义详见补充表S1。

Statistical analyses

总体说明

所有分析均使用R软件（4.3.0版本，奥地利维也纳R统计计算基金会）进行。双侧检验的统计显著性定义为P值<0.05。SCORE2模型变量（其中缺失比例最高的变量为高密度脂蛋白胆固醇（HDL-C），缺失率为12.9%）和蛋白质（大部分数据完整，仅有少数蛋白质缺失值高达20%）的缺失值，均采用R软件miceRanger包（1.5.0版本）中的链式方程法结合随机森林算法进行单一填补。

生物标志物筛选与模型构建

英国生物银行（UKB）数据集被随机分为推导集（70%）和验证集（30%），且男性和女性参与者分别进行划分。推导队列和验证队列的基线特征以及主要不良心血管事件（MACE）病例数具有可比性（补充表S2）。在每个性别层内独立进行蛋白质筛选，以构建性别特异性风险算法。

特征筛选采用最小绝对收缩与选择算子（LASSO）回归进行[29]。在200个自助抽样样本中开展嵌套十折交叉验证：对于每个自助抽样样本，通过十折交叉验证优化正则化参数k，以最小化验证误差。根据蛋白质在200次自助抽样迭代中的入选频率对其进行排序，将在至少95%的自助抽样样本中被选中（得分≥190）的蛋白质定为目标蛋白质。选择这一高标准阈值是为了提高模型的泛化能力、减少过拟合，确保仅纳入最稳健的预测因子[30]。随后，将筛选出的蛋白质纳入SCORE2模型，以构建新的性别特异性风险算法。

模型性能验证

采用英国生物银行（UKB）数据集中剩余30%的样本作为验证集，对所构建模型的预测性能进行验证。通过Harrell’s C指数和受试者工作特征（ROC）曲线评估模型的鉴别能力。使用Kang等人提出的生存分析中相关C指数比较方法[31]（通过R包compareC 1.3.2版本实现），评估C指数改善的统计学显著性。
采用净重新分类指数（NRI）和==综合鉴别指数（IDI）==评估风险重新分类能力[32]。将预先设定的心血管风险等级（0-5%、>5-10%和>10%）应用于NRI，以确定与SCORE2模型相比，个体被正确重新分类的比例。通过绘制绝对预测风险十分位数对应的观察到的主要不良心血管事件（MACE）发生率与预测发生率的曲线，评估模型的校准度。此外，基于C指数的增加值，评估每种蛋白质对鉴别能力的增量贡献。

所选蛋白质与主要不良心血管事件（MACE）的关联

为报告所选蛋白质（每增加一个标准差）与男性和女性参与者10年主要不良心血管事件（MACE）发生率相关的风险比（HRs）及95%置信区间（CIs），在验证集中，将这些蛋白质分别纳入Cox比例风险回归模型。使用R软件的survival包（3.5–5版本），在这些模型中对SCORE2模型的变量进行了调整。此外，我们还检验了每种蛋白质与性别的交互项。

结果

基线特征和主要不良心血管事件（MACE）病例数

表1呈现了纳入分析的47,382名英国生物银行（UKB）参与者的基线特征。参与者的平均年龄为56.4±8.2岁，其中44.1%为男性。在10年的随访期内，有2,163名参与者发生了主要不良心血管事件（MACE）。与未发生MACE的参与者相比，发生MACE的参与者年龄显著更大（平均年龄：61.2±8.1岁 vs. 56.2±8.2岁）、男性比例更高（62.3% vs. 43.2%）、收缩压（SBP）更高（147.0±15.3 mmHg vs. 139.1±13.7 mmHg）、高密度脂蛋白胆固醇（HDL-C）水平更低（1.4±0.4 mmol/L vs. 1.5±0.4 mmol/L），且当前吸烟者比例更高（18.9% vs. 10.0%）。

所选蛋白质与主要不良心血管事件（MACE）的关联

通过LASSO分析和自助抽样法，在推导集中共筛选出18种蛋白质，以增强SCORE2模型对主要不良心血管事件（MACE）的风险预测能力。其中，5种蛋白质在男性和女性中均被识别出，7种为男性特异性蛋白质，6种为女性特异性蛋白质（补充表S3）。

图1展示了每种所选蛋白质在男性和女性中的风险比及置信区间。在这18种蛋白质中，有14种在男性和女性中均与主要不良心血管事件（MACE）存在显著关联。在其余4种蛋白质中，ADAMTS13（含血小板反应蛋白基序的解整合素样金属蛋白酶13）、BCAN（ brevican核心蛋白）和CXCL17（C-C基序趋化因子17）仅在男性中与MACE存在显著关联，而CRYBB2（β-晶状体蛋白B2）仅在女性中与MACE存在显著关联。CRYBB2与性别的交互作用也具有统计学意义（交互作用P值为0.045）。另一种与性别存在统计学意义交互作用的蛋白质是NTproBNP（N末端B型利钠肽原）（交互作用P值为0.038），其在女性中与MACE的关联略比在男性中更为显著。

蛋白质组学生物标志物对主要不良心血管事件（MACE）的风险预测

扩展风险模型中所有变量的β系数详见补充表S3。表2展示了SCORE2模型在纳入筛选出的18种蛋白质后，对10年主要不良心血管事件（MACE）风险预测的性能指标。在推导集中，纳入这些蛋白质后，总人群的SCORE2模型C指数从0.713（95%置信区间：0.701，0.725）显著提升至0.778（95%置信区间：0.767，0.790）。这种提升在男性和女性中均有体现：男性的C指数从0.682（95%置信区间：0.666，0.699）显著升至0.763（95%置信区间：0.747，0.779）；女性的C指数从0.718（95%置信区间：0.699，0.738）显著升至0.780（95%置信区间：0.751，0.798）。

在验证集中，这些发现得到了证实，C指数有类似的提升：总人群的C指数从0.716（0.698, 0.734）升至0.778（0.761, 0.796），男性从0.684（0.659, 0.705）升至0.771（0.748, 0.795），女性从0.720（0.690, 0.751）升至0.769（0.740, 0.798）（P<0.001）。图2展示了验证集中SCORE2模型在纳入和未纳入蛋白质组学数据时的ROC曲线对比，显示加入这些蛋白质后鉴别性能有所提升，尤其在男性中更为明显。在敏感性分析中，排除非随机选择的参与者后，总样本中SCORE2模型和纳入蛋白质的扩展模型的预测性能基本保持不变（补充表S4）。

图3展示了纳入每种所选蛋白质组学生物标志物后，C统计量的增量改善情况。在男性中，所有12种所选蛋白质均显著提升了SCORE2模型的鉴别能力。值得注意的是，生长分化因子15（GDF15）、WAP四二硫键核心结构域蛋白2（WFDC2）、巨噬细胞金属弹性蛋白酶（MMP12）、C-X-C基序趋化因子17（CXCL17）和白细胞介素6（IL6）使C指数增加了0.03以上。在女性中，11种所选蛋白质中有6种显著提升了SCORE2模型的鉴别能力，其余5种蛋白质也对模型改善有贡献，尽管未达到统计学显著性。这种差异可能是由于SCORE2模型在女性中的基线预测能力已经较高（女性为0.720，男性为0.684）。与男性中的结果一致，GDF15和WFDC2是女性中影响最大的两种生物标志物，其中GDF15使C指数增加0.026，WFDC2使C指数增加0.035。

此外，将蛋白质组学特征加入SCORE2模型后，重新分类统计数据有显著提升，总人群的净重新分类指数（NRI）显著增加，达到19.9%（95%置信区间：14.7, 25.2）。男性的NRI尤其高，为36.3%（95%置信区间：25.3, 57.1），女性的NRI也较为显著（18.2%（95%置信区间：10.2, 26.5））。在男性中，被正确重新分类的非事件数多于事件数；而在女性中则相反，被正确重新分类的事件数多于非事件数。总体而言，在总人群中，无论是事件还是非事件，正确的重新分类都超过了错误的重新分类。这一点得到了总人群、男性和女性具有统计学意义的==综合鉴别指数（IDI）==的支持。补充图S2更详细地展示了重新分类情况，包含了主要不良心血管事件（MACE）的低风险（≤5%）、中风险（5–10%）和高风险（>10%）类别的重新分类表。

内部验证集中原始SCORE2模型和扩展SCORE2模型的校准曲线如图S3所示。两种模型的校准效果均良好。

Sex-specific proteomic signatures improve cardiovascular risk prediction for the general population without cardiovascular disease or diabetes

摘要

介绍

方法

研究人群

伦理声明

血浆蛋白质组学检测

SCORE2模型的变量

结局确定

Statistical analyses

总体说明

生物标志物筛选与模型构建

模型性能验证

所选蛋白质与主要不良心血管事件（MACE）的关联

结果

基线特征和主要不良心血管事件（MACE）病例数

所选蛋白质与主要不良心血管事件（MACE）的关联

蛋白质组学生物标志物对主要不良心血管事件（MACE）的风险预测

讨论